Model Selection

English Audio Processing

# English Audio Processing

Qwen2 Audio 7B Instruct GGUF

Static quantized version of Qwen2-Audio-7B-Instruct model, supporting English audio-to-text conversion tasks

Transformers English

Ichigo Llama3.1 S Instruct V0.4 GGUF

A statically quantized model based on Menlo/Ichigo-llama3.1-s-instruct-v0.4, offering multiple quantization versions to suit different hardware requirements.

Large Language Model English

My Awesome Mind Model

An audio classification model fine-tuned on the minds14 dataset based on facebook/wav2vec2-base

Audio Classification

Mini Ichigo Llama3.2 3B S Instruct

The Ichigo-llama3s series model is a multimodal language model developed by Homebrew Research, natively supporting audio and text input comprehension. Based on the Llama-3 architecture, it is trained using WhisperVQ as an audio file tokenizer, enhancing its audio understanding capabilities.

Text-to-Audio English

Wav2vec2 Gpt2 Wandb Grid Search

Automatic Speech Recognition (ASR) model trained on the LibriSpeech dataset

Speech Recognition

Featured Recommended AI Models

AIbase

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

© 2025AIbase